• 🏠 ohm
  • ♻️ Blog
  • 🎧 Music
  • 🕵️‍♂️ Bilou ?
    • 🧐 ASV
    • 🎵 Music
    • ⚫ Mes Vinyles
    • 🗨 Les Commentaires
    • 🖥 Ma Computhèque
    • 📺 Youtube

La machine a déjà exploité l'humain !

1 commentaire(s)  💬

Quand Google nous faisait bosser gratis en nous faisant croire qu'on se protégeait des robots

Pendant que tout le monde s'inquiète aujourd'hui que l'IA nous remplace, personne ne semble se rappeler qu'elle a commencé par nous faire travailler pour elle. Et le plus beau ? On trouvait ça malin.

Le plus grand tour de passe-passe technologique du XXIe siècle

Imaginez la scène : vous êtes tranquillement en train de vous connecter à votre compte email vers 2009, et là, paf ! Un petit encadré vous demande de déchiffrer deux mots complètement tordus pour "prouver que vous n'êtes pas un robot". Noble cause, pensez-vous. Sauf que pendant que vous vous débattez avec des gribouillis illisibles, vous êtes en fait en train de faire le boulot que l'ordinateur de Google n'arrive pas à faire tout seul.

Plot twist : le robot, c'était déjà vous qui le nourrissiez.

"Projet Gutenberg 2.0" ou comment numériser la planète avec style

Retour en arrière. En 2004, Google lance son projet pharaonique de numériser tous les livres de la Terre. Rien que ça. Avec des machines dignes d'un film de science-fiction - des scanners automatisés qui tournent les pages tout seuls, photographiant 1000 pages par heure, et transformant le patrimoine littéraire mondial en données.

Savez-vous que Google ils n'ont pas dépensé un centime chez Amazon pour s'approvisionner en livre. Leur coup de génie ? Convaincre les bibliothèques les plus prestigieuses du monde - Harvard, Stanford, Michigan, Oxford, New York Public Library - de leur prêter leurs collections entières. Gratuitement. En échange de copies numériques et de la technologie de pointe.

L'University of Michigan a ainsi confié ses 7 millions de volumes (soit 213 km linéaires de livres !) à Google. S'il avait dû le faire eux-mêmes à la main, il leur aurait fallu plus de 1000 ans pour numériser juste leur collection actuelle. Google leur proposait de le faire en 6 ans, tous frais payés.

Le hic ? Même avec toute cette technologie, leurs algorithmes OCR (reconnaissance optique de caractères) butent sur les vieux bouquins. Encre bavée, police d'époque, taches d'humidité... Les machines de 2005 font une crise d'adolescence face à un livre de 1823.

Solution googlelienne : pourquoi payer des employés quand on peut faire faire le travail par les internautes, gratuitement, en leur faisant croire qu'ils se protègent ?

La logistique de l'exploitation à grande échelle

Pendant que vous déchiffriez vos petits mots tordus, Google orchestrait une opération logistique digne d'un film d'espionnage. Imaginez, des conteneurs frigorifiques traversant les océans avec 90 000 livres de la Bibliothèque Nationale d'Israël, contrôlés en température et humidité pour éviter que les ouvrages développent des moisissures pendant leur voyage.

Des camions entiers de livres circulaient entre les universités prestigieuses et les centres de scanning Google. L'University of Michigan vidait littéralement ses étagères pour les envoyer se faire scanner gratuitement.

Le deal était win-win : Google assumait tous les coûts (transport, scanning, retour), les bibliothèques récupéraient leurs livres physiques plus des copies numériques. Sachant qu'avant Google, numériser coûtait environ 100$ par volume aux bibliothèques... on parle de centaines de millions d'économies.

La technologie secrète

En 2009, le brevet US7508978 a dévoilé le secret technique de Google. Un système de stéréoscopie infrarouge révolutionnaire. Deux caméras IR projettent un motif structuré sur les pages pour détecter automatiquement leur forme 3D et corriger les distorsions de courbure.

Le process : projection IR → capture stéréo → mapping 3D → correction automatique de l'OCR. Plus besoin d'aplatir les livres sous des plaques de verre (destructeur) ou de découper les reliures (mortel pour l'ouvrage).

Leurs stations industrielles combinaient : berceaux mécaniques ajustables, rayons de lumières, LIDAR range finder pour capturer la courbure du papier, et un opérateur humain avec une pédale pour déclencher les photos. De 40 minutes pour 300 pages en 2002, ils sont passés à 1000 pages par heure par station.

reCAPTCHA, le Cheval de Troie de l'intelligence collective

Mais même avec toute cette technologie de pointe, il restait des mots que l'OCR n'arrivait pas à déchiffrer. C'est là qu'intervient Luis von Ahn, le génie derrière cette arnaque légale (pardon, cette "innovation").

Il avait compris un truc fondamental. Les humains détestent perdre leur temps, mais ils sont prêts à le faire si ça sert à quelque chose d'utile. Ou du moins, s'ils croient que ça sert à quelque chose d'utile.

Le principe était d'une simplicité diabolique :

  • Prendre les mots que l'OCR n'arrive pas à déchiffrer
  • Les coller dans un CAPTCHA
  • Les présenter à des millions d'utilisateurs
  • Croiser les réponses pour valider la bonne transcription

Pendant des années, l'humanité entière a participé bénévolement au plus grand projet de transcription collaborative de l'histoire. Sans même s'en rendre compte.

L'ironie du sort technologique

Le plus drôle dans cette affaire ? On passait notre temps à prouver qu'on n'était "pas des robots" en effectuant précisément le type de tâche répétitive et mécanique qu'on associe... aux robots.

C'était de l'anti-Turing test. Au lieu de faire semblant d'être humains, on faisait semblant de ne pas être des machines tout en bossant comme des machines.

Et le comble ? Plus on était doués pour déchiffrer ces mots tordus, plus on ressemblait... à un algorithme performant.

Quand l'exploitation devient "gamification"

Google (qui a racheté reCAPTCHA en 2009) a transformé cette corvée en mini-jeu social. Déchiffrer des CAPTCHAs est devenu un rite de passage numérique, presque une preuve de citoyenneté internet.

"Ah, tu n'arrives pas à lire 'qY7$mF' ? Débutant !"

On s'est même mis à râler quand les CAPTCHAs étaient trop faciles. Comme si on réclamait plus d'exploitation. Stockholm syndrome 2.0.

La fin d'une ère (et le début d'une autre)

Vers 2012-2013, les algorithmes OCR avaient suffisamment progressé (grâce à notre aide involontaire, merci bien), et Google est passé aux images : "Sélectionnez toutes les voitures dans cette image."

Nouveaux objectifs débloqués :

  • Améliorer la reconnaissance d'objets
  • Entraîner les voitures autonomes
  • Perfectionner Google Street View
  • ...

Même principe, nouvelles données. On est passés de transcripteurs à étiqueteurs d'images. Toujours gratuitement, toujours "pour notre sécurité".

La bibliothèque fantôme

Et Google Books dans tout ça ? L'ironie ultime de cette histoire, c'est que le projet pharaonique qui a motivé toute cette exploitation humaine gratuite... n'a jamais vraiment abouti.

Après des années de batailles juridiques (Authors Guild vs Google, 2005-2015), le rêve de la "bibliothèque universelle" s'est transformé en bibliothèque fantôme. Google possède aujourd'hui plus de 40 millions de livres numérisés dans sa base de données, mais la plupart sont inaccessibles au public à cause des droits d'auteur.

Comme l'a dit un programmeur désabusé : "Quelque part chez Google, il y a une base de données contenant 25 millions de livres et personne n'a le droit de les lire."

Google a réussi le plus grand coup de l'histoire numérique. Ils ont fait travailler gratuitement les plus prestigieuses bibliothèques du monde et des millions d'internautes pour créer... une gigantesque carte de catalogue. La plus grande collection littéraire jamais constituée, verrouillée derrière des questions de copyright.

Les universitaires peuvent faire des recherches dans le texte, mais pas le lire. Les étudiants peuvent trouver des références, mais doivent acheter les livres physiques. Google Books est devenu ce qu'il combattait, un obstacle entre les lecteurs et la connaissance.

Morale de l'histoire

Pendant qu'on s'inquiète que l'IA nous remplace demain, on oublie qu'elle a commencé par nous recruter hier. Gratuitement. Avec notre bénédiction.

La vraie question n'est peut-être pas "quand l'IA va-t-elle nous remplacer ?" mais plutôt "depuis quand travaillons-nous déjà pour elle ?"

Au final, on peut dire que l'intelligence artificielle a commencé par être... artificieusement intelligente. Elle a eu la présence d'esprit de nous faire faire le boulot à sa place.

La prochaine fois qu'un CAPTCHA vous demande d'identifier des feux de circulation, souvenez-vous que vous êtes peut-être en train d'entraîner la voiture autonome de quelqu'un d'autre. Gratuitement. 🚗🤖



Commentaire(s)


De Lol@fond le 12-11-2025 à 16:44
oui c'est vrai je men souvient de google books ce bel échec 😂



🕵️‍♂️ Qui ? :

🔐 2️⃣ + 3️⃣ = ? :



🐵 Choix de l'Avatar :





📢 Commentaire :





⏲ Récemment :


La Souveraineté Numérique

DMA et Trump, les pépins pour Apple

La machine a déjà exploité l'humain !

by Bilou Gates © 1986 - 2025